The outbreak of the SARS-CoV-2 pandemic has put healthcare systems worldwide to their limits, resulting in increased waiting time for diagnosis and required medical assistance. With chest radiographs (CXR) being one of the most common COVID-19 diagnosis methods, many artificial intelligence tools for image-based COVID-19 detection have been developed, often trained on a small number of images from COVID-19-positive patients. Thus, the need for high-quality and well-annotated CXR image databases increased. This paper introduces POLCOVID dataset, containing chest X-ray (CXR) images of patients with COVID-19 or other-type pneumonia, and healthy individuals gathered from 15 Polish hospitals. The original radiographs are accompanied by the preprocessed images limited to the lung area and the corresponding lung masks obtained with the segmentation model. Moreover, the manually created lung masks are provided for a part of POLCOVID dataset and the other four publicly available CXR image collections. POLCOVID dataset can help in pneumonia or COVID-19 diagnosis, while the set of matched images and lung masks may serve for the development of lung segmentation solutions.
translated by 谷歌翻译
With most technical fields, there exists a delay between fundamental academic research and practical industrial uptake. Whilst some sciences have robust and well-established processes for commercialisation, such as the pharmaceutical practice of regimented drug trials, other fields face transitory periods in which fundamental academic advancements diffuse gradually into the space of commerce and industry. For the still relatively young field of Automated/Autonomous Machine Learning (AutoML/AutonoML), that transitory period is under way, spurred on by a burgeoning interest from broader society. Yet, to date, little research has been undertaken to assess the current state of this dissemination and its uptake. Thus, this review makes two primary contributions to knowledge around this topic. Firstly, it provides the most up-to-date and comprehensive survey of existing AutoML tools, both open-source and commercial. Secondly, it motivates and outlines a framework for assessing whether an AutoML solution designed for real-world application is 'performant'; this framework extends beyond the limitations of typical academic criteria, considering a variety of stakeholder needs and the human-computer interactions required to service them. Thus, additionally supported by an extensive assessment and comparison of academic and commercial case-studies, this review evaluates mainstream engagement with AutoML in the early 2020s, identifying obstacles and opportunities for accelerating future uptake.
translated by 谷歌翻译
自动化的机器学习(AUTOML)过程可能需要通过不仅机器学习(ML)组件及其超参数的复杂配置空间进行搜索,还需要将它们组合在一起,即形成ML管道。如果该管道配置空间过大,那么固定时间预算可实现的优化效率和模型精度可实现。一个关键的研究问题是,通过利用其历史表现来完成各种ML任务(即元知识),避免对ML管道的不良评估是否可能既可能又实用。以前的经验以分类器/回归器准确性排名的形式来自(1)(1)在历史自动运行期间进行的大量但无尽的管道评估数量,即“机会性”元知识,或(2)全面的交叉 - 通过默认超参数(即“系统”的元知识,对分类器/回归器的验证评估。使用AUTOWEKA4MCPS软件包进行了许多实验,表明(1)机会性/系统的元知识可以改善ML的结果,通常与元知识的相关性以及(2)配置空间扣除在不太保守的情况下是最佳的(2)也不是激进的。但是,元知识的效用和影响急性取决于其发电和剥削的许多方面,并保证了广泛的分析;这些通常在汽车和元学习文献中被忽视/不足。特别是,我们观察到对数据集的“挑战”的强烈敏感性,即选择预测因子的特异性是否会导致性能明显更好。最终,确定这样定义的“困难”数据集对于生成信息丰富的元知识基础和理解最佳搜索空间降低策略至关重要。
translated by 谷歌翻译
提出了联合学习(FL),以促进分布式环境中模型的培训。它支持(本地)数据隐私的保护,并使用本地资源进行模型培训。到目前为止,大多数研究一直致力于“核心问题”,例如机器学习算法对FL,数据隐私保护或处理客户之间不均匀数据分布的影响。此贡献锚定在实际的用例中,在这种情况下,FL将实际部署在生态系统的互联网中。因此,在文献中发现了一些流行的考虑之外,还需要考虑一些不同的问题。此外,引入了一种构建灵活和适应性的FL解决方案的体系结构。
translated by 谷歌翻译
实践中的本体论仍然非常具有挑战性,尤其是在涉及多个本体论的情况下。此外,尽管最近进步,系统本体论质量保证的实现仍然是一个困难的问题。在这项工作中,从实际用例的角度研究了30个生物医学本体论和计算机科学本体论的质量。对交叉主体论的参考进行了特殊审查,这对于结合本体论至关重要。提出了检测潜在问题的多种方法,包括自然语言处理和网络分析。此外,提出了一些改善本体论及其质量保证过程的建议。有人认为,尽管前进的自动工具用于本体质量保证对于本体论的改善至关重要,但它们并不能完全解决该问题。本体论重用是连续验证和改善本体质量以及指导其未来发展的最终方法。具体而言,可以通过实用和多样化的本体论点方案找到多个问题和修复。
translated by 谷歌翻译
庞大的科学出版物呈现出越来越大的挑战,找到与给定的研究问题相关的那些,并在其基础上做出明智的决定。如果不使用自动化工具,这变得非常困难。在这里,一个可能的改进区域是根据其主题自动分类出版物摘要。这项工作介绍了一种新颖的知识基础的出色出版物分类器。该方法侧重于实现可扩展性和对其他域的容易适应性。在非常苛刻的食品安全领域,分类速度和准确度被证明是令人满意的。需要进一步发展和评估该方法,因为所提出的方法显示出很大的潜力。
translated by 谷歌翻译
深入学习(DL)已被证明是在不同环境中开发模型的高效方法,包括视觉感知,语音识别和机器翻译。但是,用于施加DL的端到端过程并不是微不足道的。它需要努力解决问题配方和背景理解,数据工程,模型开发,部署,连续监控和维护等。此外,就知识和相互作用而言,这些步骤中的每一个通常严重依赖于人类,这阻碍了DL的进一步进步和民主化。因此,为了回应这些问题,在过去几年中出现了一个新的领域:自动化深度学习(Autodl)。这一努力寻求最大限度地减少人类参与的需求,并以其在神经结构搜索(NAS)的成就而闻名,这是一项是几次调查的焦点的主题。说明,NAS不是全部和最终的Autodl。因此,本综述采用总体视角,检查整个原型DL工作流程的自动化研究努力。在此过程中,这项工作还提出了一套全面的十个标准,可以评估各个出版物和更广泛的研究领域的现有工作。这些标准是:新奇,解决方案质量,效率,稳定性,可解释性,再现性,工程质量,可扩展性,概括性和生态友好性。因此,最终,本综述提供了2020年代初的AutoDL评估概述,识别未来进展的机会可能存在。
translated by 谷歌翻译
评估模型性能的基准在机器学习中起重要作用。但是,没有确定的方法来描述和创建新的基准。此外,最常见的基准测试采用了具有多个限制的性能指标。例如,两个模型的性能差异没有概率的解释,没有参考点可以指示它们是否代表了显着的改进,并且比较数据集之间的此类差异是没有意义的。我们介绍了一种名为基于ELO的预测能力(EPP)的新的元评分评估,该评估构建在其他性能指标之上,并允许对模型进行可解释的比较。 EPP分数的差异具有概率的解释,可以直接比较数据集之间,此外,基于逻辑回归的设计允许根据偏差统计数据评估排名适应性。我们证明了EPP的数学属性,并通过30个分类数据集的大规模基准和视觉数据的现实基准测试的经验结果支持它们。此外,我们提出了一个统一的基准本体,用于对基准进行统一的描述。
translated by 谷歌翻译